iT邦幫忙

2024 iThome 鐵人賽

DAY 3
1

Day3 監督式學習

前言

在昨天我們有提到四個機器學習的類型,今天我會就監督式學習來講解更多跟監督式學習有關的內容。

工作原理

首先我們要先複習一下,監督式學習是一種所有資料都被「標註」(label)的學習方法。每個輸入數據都有對應的輸出標籤,這使得機器能夠根據這些標註進行學習,並在未來進行預測時判斷誤差。

優點與缺點

  • 優點:
    • 準確性高:有標籤的數據能幫助模型準確學習模式。
    • 應用範圍廣:可用於回歸和分類問題,適用於多種場景。(下面會提到)
  • 缺點:
    • 數據需求大:需要大量標註數據,標註過程通常耗時且費力。
    • 過擬合風險:模型可能過度擬合訓練數據,對於未見數據表現不佳。

    過擬合 (Overfitting),過擬合是機器學習中的一個常見問題,指的是模型在訓練數據上表現良好,但在未見數據(測試數據)上表現不佳的情況。這通常發生在模型學習到了訓練數據中的噪音或不必要的細節,導致其對特定數據過度適應。

常見的演算法

在監督式學習中可以分成兩大類的演算法,如同上面的優點提到的,第一類是迴歸。

迴歸 (Regression)
迴歸是一種監督學習,其目標是預測連續值或數值。在迴歸任務中,目標標籤是實數,模型學習將輸入特徵映射到連續輸出。迴歸算法廣泛應用於預測股市、房價預測、銷售數據分析等。

  • 常見的迴歸算法:
    • 簡單線性迴歸:適用於只有一個輸入變量的情況,通過找到一條最佳擬合直線來預測輸出。
    • 多元線性迴歸:適用於有多個輸入變量的情況,通過找到一個最佳擬合平面來預測輸出。
    • 多項式線性迴歸:處理非線性數據,通過多項式函數來擬合數據。
    • 嶺迴歸 (Ridge Regression):解決多重共線性問題,增加懲罰項來約束模型參數。
    • Lasso 回歸:類似於嶺迴歸,但使用 L1 正則化,使得一些回歸係數可以變為零,實現特徵選擇。

而第二種則是分類。
分類 (Classification)
分類是一種有監督的學習,其目標是將數據點分配到預定義的類別或類別中。在分類任務中,目標標籤是離散的,代表不同的類或組。分類算法廣泛應用於垃圾郵件檢測、圖像識別、醫療診斷等。

  • 常見的分類算法:
    • 邏輯回歸 (Logistic Regression):儘管名字中有「回歸」,但實際上是一種用於二元分類的算法,使用 Sigmoid 函數輸出概率值。
    • 支持向量機 (SVM, Support Vector Machine):通過尋找最佳的超平面來分割不同類別的數據點。
    • 核函數支持向量機 (Kernel SVM):使用核函數將數據映射到高維空間,處理非線性分類問題。
    • 樸素貝葉斯 (Naive Bayes):基於貝葉斯定理,假設特徵之間是獨立的,適用於文本分類和垃圾郵件檢測。
    • 決策樹 (Decision Tree):通過構建一個樹狀模型來做出分類決策,樹的每個節點代表一個特徵,每個分支代表該特徵的一個值。
    • 隨機森林 (Random Forest):集成多個決策樹,通過投票來決定最終的分類結果,減少過擬合問題。
    • K 近鄰算法 (K-Nearest Neighbors, KNN):根據數據點在特徵空間中最接近的 K 個鄰居來進行分類。

這些監督學習算法在實際應用中有著廣泛的用途,根據不同的數據和問題選擇合適的算法可以達到最佳的預測效果。

小結

今天稍微說了一些監督式學習的概念,我相信這對於剛接觸的人來說,其實還是蠻抽象的,我明天會以程式的演示來介紹一些算法,讓他以可視化的方式來介紹,並搭配一些比較明確的舉例來介紹,我相信這對於剛接觸的人應該會比較友善一點,明天見囉。


上一篇
[Day2]機器學習入門:概念與應用
下一篇
[Day4] 監督式學習的視覺化:用圖表看懂機器學習
系列文
深度學習的學習之旅:從理論到實作30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言